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Spracherkennungseinrichtung 

Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung, bei der min- 
destens zwei Eingangssignale uber jeweilige getrennte Kanale parallel einer 
Erkennungseinrichtung mit einer Merkmalsextraktionseinrichtung zum Bilden von 

s Merkrnalvektoren, mit einer Transformationseinrichtung zum Bilden transformier- 

ter Merkrnalvektoren und mit einem nachfolgenden Klassifikator zugefuhrt wer- 
den, der eine Klassifikation der zugefuhrten transformierten Merkrnalvektoren 

^ trifft und den ermittelten Klassen entsprechende Ausgangssignale abgibt. 

10 In modernen Systemen zur automatischen Spracherkennung wird oftmals durch 

eine lineare Transformation extrahierter Merkmale versucht, die Erkennungs- 
leistung eines zugrundeliegenden Klassifikators zu verbessern. Die Transforma- 
tion wird so gewahlt, dass zum einen eine Dimensionsreduktion des Merkmalrau- 
mes stattfindet, aber zum anderen moglichst viel klassentrennende Information 

15 erhalten bleibt. Vielfach wird fur diese Aufgabe die lineare Diskriminanzanalyse 

verwendet, wie z.B. in R. Haeb-Umbach, H. Ney,: Linear Discriminant Analysis 
for Improved Large Vocabulary Continuos Speech Recognition. In: Proceedings 
of the International Conference on Acoustics, Speech & Signal Processing 



(ICASSP). I. 1992, S. 13-16; M. Finke, P. Geutner, H. Hild, T. Kemp, K. Ries, 
M. Westphal: The Karlsruhe-Verbmobil Speech Recognition Engine. In: Procee- 
dings of the International Conference on Acoustics, Speech & Signal Processing 
(ICASSP). I. 1997, S. 83-86 sowie G. Ruske, R. Falthauser, T/Pfau: Extended 
Linear Discriminant Analysis (EL-DA) for Speech Recognition. In: Proceedings of 
the International Conference on Speech and Language Processing (ICSLP). 1 998 
naher ausgefiihrt ist. 

Bekannt ist dabei eine Reduktion eines zusammengesetzen Merkmalvektors von 
meist 39 auf 32 Komponenten. Der ursprungliche Merkmalvektor wird dabei aus 
der Kurzzeitleistung des Signals, 12 Mel-Frequenz-Cepstral-Koeffizienten 
(MFCC), wie in S. B. Davis, P. Mermelstein: Comparison of Parametric Represen- 
tation for Monosyllabic Word Recognition in Continiously Spoken Sentences. 
IEEE Transactions on Acoustics, Speech, and Signal Processing ASSP-28 
(1980), S. 357-366 angegeben, und deren erster und zweiter zeitlicher Ablei- 
tung gebildet. Die Merkmalextraktion arbeitet in diesem Fall mit einem einzigen 
Eingangssignal. Typischerweise werden die Merkmale fur Signalblocke mit einer 
Lange von etwa 20 ms berechnet. Dies geschieht in einem reduzierten Zeittakt 
etwa alle 10 ms. Eine solche Verarbeitungskette ist in Fig. 3 dargestellt. Der 
Index k bezeichnet dabei einen hohen Zeittakt eines digitalisierten Sprach- 
signals, wahrend der Index I einen reduzierten Zeittakt der Merkmalvektoren 
darstellt. Die nachfolgende Klassifikation verwendet zur Unterscheidung einzel- 
ner Klassen sogenannte Verborgene Markov-Modelle oder einen Mustervergleich 
mit dynamischer Zeitanpassung. Auch werden kunstliche neuronale Netze zur 
Klassifikation verwendet. Diese Klassifikatoren mussen anhand von Beispiel- 
daten in einer Trainingsphase an die Klassifikationsaufgabe angepasst werden. 



Stehen andererseits mehrere Eingangssignale zur Verfugung, werden diese meist 
mittels eines Verfahrens zur mehrkanaligen Storgerauschreduktion zu einem 
einzigen storgerauschreduzierten Signal zusammengefuhrt, so dass die Merkmal- 
extraktionseinrichtung der Spracherkennungseinrichtung selbst wiederum ledig- 
lich nur ein ihr zugefiihrtes Eingangssignal verarbeiten muss. Die verwendeten 
Verfahren zur Storgerauschreduktion nutzen dabei die Korrelation zwischen den 
Signalen, wie in J. Allen, D. Berkley, J. Blauert: Multimicrophone signal- 
processing technique to remove room reverberation from speech signals. Journal 
of the Acoustical Society of America 62 (1977), Nr. 4, S. 912-915 und M. Dor- 
becker, S. Ernst: Combination of Two-Channel Spectral Subtraction and Adap- 
tive Wiener Post-Filtering for Noise Reduction and Dereverberation. In: Pro- 
ceedings of EUSIPCO. 2. 1996, S. 995-998 angegeben, oder die Richtwirkung 
sogenannter Mikrofon-Arrays aus, wie in M. Dorbecker: Small Microphone 
Arrays with Optimized Directivity for Speech Enhancement. In: Proceedings of 
the European Conference on Speech Communication and Technology (EURO- 
SPEECH). 1. 1997, S. 327-330 und J- Bitzer, K. U. Simmer, K.-D. Kammeyer: 
Multi-Microphone Noise Reduction Techniques for Hands-Free Speech Recog- 
nition - A Comparative Study. In: Proceedings of the Workshop on Robust 
Methods for Speech Recognition in Adverse Conditions. 1999, S. 171-174 
angegeben. Diese Verfahren arbeiten entweder im Frequenzbereich mit etwa 
128 bis 512 Frequenzbandern oder mit einer Filterung der Eingangssignale im 
Zeitbereich. Diese Ansatze erfordern eine hohe Rechenleistung, insbesondere bei 
Echtzeitimplementierung, da zur Verrechnung grofce Datenmengen anfallen. Die 
Reduktion auf wenige Merkmale erfolgt erst nach der Kombination der Ein- 
gangssignale. 



Der Erfindung liegt die Aufgabe zugrunde, eine Spracherkennungseinrichtung 
bereitzustellen, die bei mogiichst hoher Erkennungsrate einen moglichst geringen 
Aufwand hinsichtlich des Aufbaus und der Verarbeitungsleistung erfordert. 

Diese Aufgabe wird mit den Merkmalen des Anspruchs 1 gelost. Hiernach ist 
vorgesehen, dass die Merkrnalsextraktionseinrichtung in den einzelnen Kanalen 
getrennt angeordnete Merkmalsextraktionsstufen aufweist, die mit ihren Aus- 
gangen an die gemeinsame Transformationseinrichtung angeschlossen ist. 

Mit diesem Aufbau der Spracherkennungseinrichtung und der darnit verwirk- 
lichten Vorgehensweise werden die Eingangssignale in den einzelnen Kanalen 
direkt der Merkmalextraktion unterzogen, wobei aus den Eingangssignalen mog- 
lichst viel Infomation fur den Erkennungsprozess in den extrahierten Merkmal- 
vektor einflieflen soil. Die Kombination der Kanale findet erst im Merkmalraum 
statt, wobei aus den Merkmalvektoren der einzelnen Kanale ein einziger transfor- 
mierter Merkmalvektor berechnet wird. Die Merkmalvektoren werden also unab- 
hangig voneinander aus den Eingangssignalen berechnet und mittels einer Trans- 
formation zu einem gemeinsamen Merkmalvektor kombiniert. 

Wahrend des Betriebs der Spracherkennungseinrichtung erfolgt die Kombination 
der Merkmalvektoren durch eine einfache zeitinvariante Matrixoperation. Dies 
fuhrt gegenuber dem bekannten adaptiven Verfahren der mehrkanaligen 
Storgerauschreduktion zu einer deutlichen Reduzierung des Rechenaufwandes. 
Zum einen ist fur das entwickelte Verfahren keine Adaption im laufenden Betrieb 
notwendig, zum anderen erfolgt die Reduktion auf wenige Merkmale und auf 
einen reduzierten Zeittakt bereits vor der Kombination der Kanale. 



Es hat sich uberraschend gezeigt, dass beim Trainieren der Spracherkennungs- 
einrichtung unter den Bedingungen einer vorgesehenen Betriebssituation ohne 
Storgerauschreduktion einerseits und dem Einsatz der Spracherkennungseinrich- 
tung in der entsprechenden realen Situation ebenfalls ohne Storgerauschreduk- 
tion andererseits sich sogar eine hohere Erkennungsrate ergibt als mit Storge- 
rauschreduktion beim Training und realen Einsatz. Soil aus irgendwelchen 
Griinden doch eine Storgerauschreduktion beim Training und beim realen Einsatz 
vorgenommen werden, so kann diese ohne groBen Zusatzaufwand vor der Merk- 
malextraktion in einzelnen Kanalen, also pro Kanal relativ einfach vorgenommen 
werden. 

Eine vorteilhafte Ausgestaltung der Spracherkennungseinrichtung besteht darin, 
dass die Transformationseinrichtung eine lineare Transformationseinrichtung ist. 
Geeignete MaBnahmen bestehen dabei darin, dass die Transformationseinrich- 
tung zum Durchfuhren einer linearen Diskriminanzanalyse (LDA) oder einer 
Karhunen-Loeve-Transformation ausgebildet ist. 

Diese Wahl der Transformationseinrichtung bei der Entwicklung des Spracher- 
kenners fuhrt dazu, dass moglichst viel Information zur Unterscheidung der 
verschiedenen Klassen erhalten bleibt. Beim Einsatz der linearen Diskriminanz- 
analyse oder der Karhunen-Loeve-Transformation sind Beispieldaten fur den Auf- 
bau der Transformationseinrichtung notwendig. Gunstig ist die Verwendung der- 
selben Daten, die zum Aufbau des Klassifikators verwendet sind. 

Es gibt auch Erweiterungen der LDA, die hier eingesetzt werden konnen. Aufcer- 
dem ist es denkbar f nichtlineare Transformationseinrichtungen zu wahlen (z.B. 



sogenannte "neuronale Netze"). Gemeinsam ist diesen Verfahren, dass sie 
Beispieldaten fur den Aufbau benotigen. 

Die Erkennungsrate wird weiterhin dadurch unterstutzt, dass der Klassifikator 
unter Bedingungen trainiert ist, die einer vorgesehenen Einsatzsituation ent- 
sprechen. 

Die Erfindung wird nachfolgend unter Bezugnahme auf die Zeichnungen naher 
erlautert. Es zeigen: 

Fig. 1 ein Blockschaltbild fur eine zweikanalige Spracherkennungsein- 
richtung, 

Fig. 2 ein Blockschaltbild fur eine mehrkanalige Spracherkennungsein- 
richtung und 

Fig. 3 eine einkanalige Spracherkennungseinrichtung nach dem Stand der 
Technik. 

Fig. 1 zeigt ein Blockschaltbild einer entwickelten Spracherkennungseinrichtung 
bzw. eines entsprechenden Verfahrens in zweikanaliger Ausfuhrung, das heifrt 
mit zwei Eingangssignalen y, und y 2 . Merkmalvektoren Oj und 0 2 werden aus 
den Eingangssignalen und y 2 mittels bekannter Verfahren der Merkmalextrak- 
tion, z.B. MFCC, getrennt pro Kanal gewonnen. Aus der Folge dieser Merkmal- 



vektoren wird durch eine vorzugsweise lineare Operation eine neue Folge 
transformierter Merkmalvektoren gebildet nach der Beziehung 



0\l) — T 



Oi(l) 

o 2 (i) 



(1) 



Die Matrixoperation wird fur jeden Signalblock in einem reduzierten Zeittakt I 
durchgefuhrt. Die Dimension der Matrix T wird entsprechend gewahlt, um eine 
Dimensionsreduktion zu erbringen. Besitzen die Merkmalvektoren und U 2 je- 
weils n 1 bzw. n 2 Komponenten und soli der transformierte Merkmalvektor ledig- 
lich n t Koeffizienten umfassen, so muss die Matrix T die Dimension n t mal 
(n 1 +n 2 ) besitzen. Ein typisches Zahlenbeispiel ist ^= 39, n 2 = 39 und n t = 32. 
Dann hat die Transformationsmatrix T die Dimension 32*78, und die Transfor- 
mation erbringt eine Dimensionsreduktion von insgesamt 78 Komponenten in. 
den Merkmalvektoren O, und 0 2 auf 32 Komponenten im transformierten Merk- 
malvektor O*. 



Die Transformationsmatrix T wird anhand von Beispieldaten so eingestellt, dass 
der transformierte Merkmalvektor O x die maximale Information zur Unterschei- 
dung der einzelnen Klassen besitzt. Dazu konnen die bekannten Verfahren der 
linearen Diskriminanzanalyse oder der Karhunen-Loeve-Transforrnation verwen- 
det werden. Zum Training des Klassifikators KL werden die transformierten 
Merkmalvektoren O x {l) verwendet. 
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Als Erweiterung des Verfahrens konnen, wie in Fig. 2 dargestellt, auch mehr als 
zwei Kanale miteinander kombiniert werden. Gleichung 1 geht dann uber in 



0\l) = T ■ 



Oi(l) 
O n (1) 



(2) 



Die Dimension der Transformationsmatrix ist dann n t x (j2iLi n i) > wobei nj die 
Anzahl der Komponenten in dem Merkmalvektor Oj angibt. 



Die in den Fig. 1 und 2 angegebenen Blocke ME1 , ME2, MEk der den jeweiligen 
Kanalen zugeordneten Merkmalsextraktionsstufen, die zusammen die Merkmals- 
extraktionseinrichtung bilden, mussen nicht notwendigerweise fur alle Ein- 
gangssignale y v y 2 bzw. y N gleich sein. Als Alternative kornmen z.B. Merkmale 
in Betracht, die auf der sogenannten linearen Pradiktion beruhen, die in der 
Sprachkodierung ebenfalls Anwendung findet. 
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Anspruche 

1 . Spracherkennungseinrichtung, bei der mindestens zwei Eingangssignale 
[y^k) ... y N (k)] uber jeweilige getrennte Kanale parallel einer Erkennungs- 
einrichtung mit einer Merkmalsextraktionseinrichtung zurn Bilden von 
Merkmalvektoren, mit einer Transformationseinrichtung zurn Bilden 
transformierter Merkmalvektoren [0*0)] und mit einem nachfolgenden 
Klassifikator (KL) zugefuhrt werden, der eine Klassifikation der zugefuhr- 
ten transformierten Merkmalvektoren [O x {\)] trifft und den ermittelten 
Klassen entsprechende Ausgangssignale abgibt, 

dadurch gekennzeichnet, 

dass die Merkmalextraktionseinrichtung in den einzelnen Kanalen ge- 
trennt angeordnete Merkmalextraktionsstufen (ME1 ... MEk) aufweist, die 
mit ihren Ausgangen an die gemeinsame Transformationseinrichtung (T) 
angeschlossen sind. 

2. Spracherkennungseinrichtung nach Anspruch 1, 
dadurch gekennzeichnet, 

dass die Transformationseinrichtung (T) eine lineare Transformationsein- 
richtung ist. 
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5 3. Spracherkennungseinrichtung nach Anspruch 2, 

dadurch gekennzeichnet, 

dass die Transformationseinrichtung (T) zum Durchfuhren einer linearen 
Diskriminanzanalyse oder einer Karhunen-Loeve-Transformation ausgebil- 
det ist. 

~^^) 4. Spracherkennungseinrichtung nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 

dass die Transformationseinrichtung (T) anhand von Beispieldaten ge- 
wahlt ist. 
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5. Spracherkennungseinrichtung nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 

dass der Klassifikator (KL) unter Bedingungen trainiert ist, die einer 
vorgesehenen Einsatzsituation entsprechen. 

^ 6. Spracherkennungseinrichtung nach einem der vorhergehenden Anspruche, 
dadurch gekennzeichnet, 

dass den Merkmalsextraktionsstufen (ME1 ... MEk) jeweils zugeordnete 
Storgerauschreduktionsstufen vorgeschaltet sind. 
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Verfahren zur mehrkanaligen Merkmalextraktion fur die Spracherkennung 
Zusammenfassung 

Die Erfindung bezieht sich auf eine Spracherkennungseinrichtung, bei der 
mindestens zwei Eingangssignale [y^k) ... y N (k)] uber jeweilige getrennte 
Kanale parallel einer Erkennungseinrichtung mit einer Merkmalsextraktions- 
einrichtung zum Bilden von Merkrnalvektoren, mit einer Transformations- 
einrichtung zum Bilden transformierter Merkrnalvektoren [O l (\)] und mit 
einem nachfolgenden Klassifikator (KL) zugefuhrt werden, der eine Klassifi- 
kation der zugefuhrten transformierten Merkrnalvektoren [O x {\)] trifftund den 
ermittelten Klassen entsprechende Ausgangssignale abgibt. Eine hohe 
Erkennungsrate bei relativ geringem Aufwand des Aufbaus und der 
Verarbeitung werden dadurch erreicht, dass die Merkmalsextraktions- 
einrichtung in den einzelnen Kanalen getrennt angeordnete Merkmalsextrak- 
tionsstufen (ME1 ... MEk) aufweist, die mit ihren Ausgangen an die gemein- 
same Transformationseinrichtung (T) angeschlossen sind (Fig. 1). 
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